Passer au contenu

Comment Deezer a utilisé une intelligence artificielle pour concevoir…  un karaoké

Son système Spleeter permet de supprimer la partie vocale d’une chanson, sans dénaturer le reste de l’instrumentation. Un procédé permis grâce à l’IA du service de streaming, qui sert habituellement à tout autre chose. 

Faire du karaoké comme si on chantait avec son groupe préféré. C’est que propose de faire Deezer avec son système Spleeter. Présenté lors du « Deezer Day » qui se tenait ce 29 janvier à Paris, le procédé permet tout simplement d’éliminer la voix sur n’importe quelle chanson. Synchronisée avec ses paroles, elle devient alors le parfait support pour un karaoké plus vrai que nature. Une réelle avancée par rapport aux réinstrumentations ringardes proposées la plupart du temps par les salles de karaoké.

Pour y parvenir, Deezer s’est basé sur les travaux de sa cellule R&D, « une équipe d’une dizaine de personnes aux profils techniques allant du mathématicien à l’informaticien », expliquait ce jour-là son responsable Manuel Moussallam. Sur la scène de la Maison des Métallos, c’est lui qui a démontré le fonctionnement de Spleeter en se basant sur une chanson de Queen.

À partir d’un simple fichier audio (par exemple un MP3), l’intelligence artificielle entraînée par les ingénieurs de Deezer parvient à en séparer chaque piste. L’interface les affiche alors les unes en dessous des autres, comme sur n’importe quel séquenceur (par exemple Cubase) ou station audionumérique (de type Pro Tools). Tel un véritable ingénieur du son, on peut alors « muter » certaines pistes ou au contraire en isoler d’autres. 

Une histoire de métadonnées

Les applications sont donc nombreuses et la plus évidente pour Deezer a donc été de concevoir un karaoké se basant sur des chansons dont la partie vocale est supprimée. « On peut aussi isoler les pistes de certains instruments pour pouvoir les travailler et apprendre à les jouer comme les originales », imaginait aussi Manuel Moussallam.  

Mais comment son équipe est-elle parvenue à mettre sur pied ce système ? « Nous recevons des millions de chansons par jour de la part des maisons de disques, mais nous ne savons pas toujours à quoi elles correspondent », explique à 01net Benoît Terpereau, le directeur produit de Deezer. Au cœur de cette anomalie, se trouvent les métadonnées. Ces informations qui sont censées renseigner différents aspects d’une chanson.  

« Sans ces métadonnées, on ne sait pas toujours dans quelle langue sont certaines chansons. Nous avons aussi besoin de connaître les instruments qui y sont joués et de quelle manière, détaille le directeur produit. Cela nous permet par exemple de déterminer le style de musique d’un titre ou d’un album, pour pouvoir ensuite les classer et faire en sorte que nos algorithmes les remontent dans certaines playlists ». 

C’est donc via un désormais classique système de machine learning que Deezer entraîne son intelligence artificielle à reconnaître ces styles. Tel riff de guitare est considéré comme rock, tel rythme de batterie sera funk et ainsi de suite. L’IA isole ensuite chaque instrument d’une chanson pour l’écouter et donc déterminer à quel genre de musique il appartient. C’est cette capacité d’isolation des instruments en pistes séparées qui est utilisée dans Spleeter et dans l’application karaoké qui en découle. 

Un système accessible à tous en open source

Cette initiative inédite pour un service de streaming, la société a décidé de ne pas la garder pour elle. Deezer a publié le code de Spleeter en open source pour que tous les développeurs puissent en profiter. « C’est une manière pour nous d’exister face aux grandes entreprises du secteur », justifie Benoît Terpereau. 

Quand Spotify, Apple Music ou Amazon dominent le marché mondial du streaming, jouer la carte technologique est en effet un bon moyen de faire parler de soi et de démontrer le savoir-faire de Deezer en la matière. Quitte à perdre cet avantage dans un premier temps et le voir utilisé par ses concurrents. 

Capture d’écran – L’application Karaoké by Deezer, créée à partir de la technologie de Spleeter.

« D’ailleurs, certains développeurs ont déjà utilisé le code pour développer leurs propres applications de karaoké », constate le directeur produit. Un comble alors que Deezer n’a toujours pas lancé le sien. « C’est long à mettre en place puisqu’il faut négocier l’utilisation des paroles avec les ayants droit, mais aussi récupérer toutes les paroles via d’autres fournisseurs et les faire correspondre à chaque chanson », regrette-t-il. 

En effet, si les fichiers manquent de métadonnées, ils ne sont pas non plus livrés avec leurs paroles. C’est là qu’entrent en jeu des sociétés tierces telles que Genius ou Musixmatch. Ce sont elles qui fournissent les textes aux services de streaming, qui se chargent alors de les intégrer aux fichiers musicaux. 

Une fonctionnalité différenciante pour Deezer

Reste enfin à trouver un modèle économique à cette technologie de karaoké. Les ayants droit ne céderont pas l’utilisation de leurs paroles pour ce nouvel usage sans contrepartie financière. « Deux solutions sont possibles. On peut espérer que cette fonctionnalité séduise simplement plus d’utilisateurs, augmente leur engagement sur le service et donc les sommes reversées aux ayants droit », imagine Benoît Terpereau. 

« On peut aussi penser que les ayants droit demandent à ce que cette nouvelle fonction soit commercialisée sous forme d’option payante, tout est possible », constate-t-il. Si Deezer a bel et bien conçu le procédé, une chose est sûre, il ne sera pas à décider seul de comment il sera accessible à ses utilisateurs.

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.


Jean-Sébastien Zanchi